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摘 要 : 针对 智能 商业 平台 中 的 大 数据 预测 问题 ， 提 出 一 种 多 因素 稀疏 回归 预测 模型 。 以 离散 余弦 变换 为 基础 ， 构 
包含 多 个 外 部 因素 〈 节 假日 、 天 气 、 温 度 ) 的 字典 集 ， 通 过 LASSO 方法 定量 求解 稀疏 编码 模型 中 各 外 部 因素 的 

影响 。 实 验 对 2 000 个 商家 的 客流 量 进 行 预 测 。 实 验 结果 表明 ， 外 部 因素 不 同 程度 地 影响 客流 量 ， 在 预测 模型 中 受 

加 外 部 因素 后 可 以 有 效 提高 预测 的 准确 性 。 同 时 , 通过 与 其 他 方法 的 对 比 , 多 因素 稀 朴 回归 预测 模型 比 RNN、ARIMA 

等 模型 的 预测 效果 更 好 。 

关键 词 : 智能 商业 平台 ; 客流 量 预测 ; 稀 朴 回归 ; 多 因素 分 析 ; 字典 学 习 
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Retail consumer traffic forecasting based on multi-factor sparse regression prediction model 


Zheng Zengweil, Du JunjieL 2 Zhou Yanzhen 2 Sun Lin!', Huo Meimeil 
(1. Intelligent Plant Factory of Zhejiang Province Engineering Laboratory, City College, Zhejiang University, Hangzhou 
310015, China; 2. College of Computer Science & Technology, Zhejiang University, Hangzhou 310012, China) 


Abstract: This paper proposed a multi-factor sparse regression prediction model aiming to solve the problem of big data 
prediction in business intelligent platform. Constructed a dictionary containing external factors (holidays, weather, and 
temperature) based on the discrete cosine transform, and quantitatively solved the influence of external factors in the sparse 
coding model by LASSO. In experiments, the customer traffics of 2 000 stores were predicted. The experimental results 
show that the impact of external factors on the store customer traffic are different, and the prediction accuracy can be 
effectively improved with the combination of external factors in the prediction model. In addition, the method was 
compared with other forecasting methods. The result shows that multi-factor sparse regression prediction model outperforms 
than other models such as RNN and ARIMA. 

Key words: business intelligent platform; customer traffic prediction; sparse regression; multiple factors analysis; 
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0 引言 F 滑 预测 方法 。 文献 [5] 使 用 模糊 时 间 序 列 模型 和 季节 模型 对 
二 南京 某 商场 的 客流 量 进行 预测 ， 实 验 结果 表明 季节 模型 要 优 
随 着 移动 互联 网 的 快速 发 展 ， 人 们 可 以 方便 地 使 用 手机 于 模糊 时 间 序 列 。Liu 等 人 在 快餐 店 数 据 预 测 案例 中 的 提 
选择 附近 的 商家 进行 消费 ， 这 使 得 零售 业务 的 竞争 越 来 越 激 了 时 间 序 列 数据 挖掘 方法 ， 并 对 Box-Jenkins 时 间 序 列 预 涡 
烈 。 零售 服务 是 典型 的 定制 服务 ,高效 的 库存 管理 0 是 满足 方法 进行 了 改进 。 灰色 系统 预测 中 是 时 间 序 列 的 男 一 种 方法 ， 
客户 需求 的 基础 。 不 准确 的 消费 者 流量 预测 可 能 导致 库存 过 用 于 解决 有 限 数 据 和 信息 不 足 的 不 确定 问题 。 灰 色 预 测 与 
多 或 不 足 ， 这 将 直接 影响 商家 业务 的 僵 利 能 力 和 竞争 地 位 。 ARIMA 模型 不 同 ， 它 对 于 受 不 确定 因素 影响 较 大 的 复杂 环 
j 消 费 者 流量 的 准确 预测 可 以 通过 提高 连锁 经 营 效 率 和 尽量 境 预 测 效 果 较 好 ， 而 且 所 需 的 样本 数据 较 小 。 文 献 [8] 提 出 一 
或 少 浪费 来 提高 零售 商 的 恒利 能 力 。 因 此 ， 对 于 零售 商店 3 种 离散 灰色 预测 模型 与 人 工 神经 网 络 混合 的 智能 模型 ， 实 验 
说 ,根据 准确 的 客流 量 预测 来 制定 正确 的 营销 策略 尤为 重要 。 结果 表明 该 算法 可 有 效 地 用 于 时 尚 销售 的 即时 预测 。 数 据 挖 
零售 业务 消费 者 流量 预测 是 对 时 间 序 列 的 短期 预测 ， 它 掘 技术 提供 了 一 种 将 大 量 数据 分 解 成 可 应 用 于 时 间 序 列 分 析 
依赖 于 历史 数据 并 预测 未 来 的 消费 者 流量 。 自 回归 移动 平均 的 信息 的 方法 。irem 等 人 外 提出 了 一 种 数据 挖掘 方法 来 预测 
(autoregressive integrated moving average model, ARIMA) B] 模 零售 需求 ， 他 们 采用 二 分 组 聚 类 算法 对 具有 相似 销售 行为 的 
型 是 时 间 序 列 预测 中 最 广泛 使 用 的 经 典 方法 。ARIMA 预测 ”仓库 进行 分 组 ， 并 采用 贝 叶 斯 网 络 获得 较 好 的 预测 结果 。 
框架 最 早 是 由 Box 和 Jenkins 开发 的 ， 这 个 框架 包括 模型 选 。” Schneider 等 人 09 提 出 了 一 种 基于 属性 回归 模型 的 随机 预测 
择 、 参 数 估计 和 模型 检验 的 三 个 迭代 过 程 。Ramos 等 人 中 在 ”方法 来 预测 商品 的 销售 量 ， 实 验 结果 表明 用 户 评论 对 于 商品 
消费 者 零售 销售 预测 案例 f 完 中 比较 了 ARIMA 模型 和 指数 的 销售 有 着 明显 的 影响 ,该 方法 具有 很 好 的 泛 化 性 与 扩展 性 。 
平滑 的 预测 效果 ,实验 结果 表明 ARIMA 模型 要 更 优 于 指数 ” 文献 [11] 基 于 用 户 消费 行为 数据 提出 了 一 种 结合 Hu 全 模 型 [2 
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和 Monte Carlo 模拟 的 预测 方法 ，Hu 他 模型 能 很 好 反映 商 
店 与 客户 之 间 的 关系 ， 但 是 对 一 些 市 场 潜在 规则 以 及 用 户 行 
为 却 无 法 很 好 表示 ， 而 Monte Carlo 模拟 能 克服 这 个 缺点 。 


姑 此 ， 该 方法 的 基本 思想 是 挖掘 两 种 模型 之 间 的 关系 来 进 
步 提 高 预测 精度 。 


综 上 所 述 ， 目 前 时 间 序 列 预测 基本 都 是 仅仅 依靠 历史 数 
据 来 预测 未 来 一 段 时 间 的 趋势 。 但 是 时 序数 据 不 仅仅 与 历史 
客流 量 相关 ， 特 别 是 商家 客流 量 ， 还 可 能 与 未 来 一 段 时 间 的 
节假日 、 天 气 、 温 度 一 系列 外 部 因素 有 关 。 而 这 些 因素 常常 
耦合 在 一 起 ， 因 此 商家 客流 量 预测 成 为 一 个 难以 建立 有 效 数 
学 模型 的 复杂 的 ， 高 度 不 确定 的 非 线性 波动 系统 。 使 用 传统 
方法 难以 对 商店 客流 量 建立 有 效 的 预测 模型 。 本 文 综合 考虑 


| 

了 多 种 影响 商家 客流 量 的 外 部 因素 , 提出 了 一 种 结合 节假日 、 
温度 、 天 和 气 情况 的 多 因素 稀疏 回归 预测 模型 ， 将 外 部 因素 按 
稀 玻 编码 系数 吉 加 以 增强 预测 准确 性 , 该 模型 在 2000 个 商家 
上 进行 客流 量 预测 , 同时 分 析 了 这 些 因素 对 预测 精度 的 影响 。 
实验 结果 表明 ， 附 加 这 些 外 部 因素 后 可 以 有 效 提高 客流 量 预 
测 的 准确 性 。 


1 ， 多 因素 稀 朴 回归 模型 
1.1 模型 框架 
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数据 ， 而 不 是 商家 所 有 的 数据 。 因 此 ， 数 据 预 处 理 是 一 个 不 
断 循环 的 过 程 。 


二 
开始 
4 
se 计算 异常 值 边 四 
和 广 一 一 一 全 F101.1.5*1OR 
F2=Q3+1.5*1OR 
计算 数据 序列 的 去 除 不 在 范围 
上 四 分 位 点 CO1 和 [FLF2] 中 的 噪声 
下 四 分 位 点 03 数据 
二 一 一 vv 
se 数据 标准 化 
A "= == 
结束 


妈 2 ”数据 预 处 理 流程 
Fig. 2 Process of data preprocessing 


图 3 是 数据 去 噪 的 示意 图 ， 其 中 图 3(a) 是 原始 数据 ， 可 


本 文 构 建 的 多 因素 稀疏 回归 模型 的 预测 流程 如 图 1 所 示 。 


首先 ， 对 训练 数据 进行 预 处 理 ， 去 除 噪声 数据 以 及 数据 标准 
化 ; 接着 ， 使 用 离散 余弦 变换 (discrete cosine transform, DCT) 
[1， 克 罗 内 克 函 数 以 及 外 部 因素 (节假日 、 温 度 和 天 气 ) 构 
建 一 个 过 完备 的 多 因素 字典 ， 然 后 ， 使 用 构建 的 字典 对 训练 
数据 进行 稀疏 分 解 ， 求 解 稀 玻 系数 a; 最 后 ， 根 据 稀疏 系数 
和 字典 进行 未 来 一 段 时 间 的 客流 量 的 预测 。 


| 数据 预 处 理 ) 1/ 预测 
Nn | Di x | | 
| ~ wh 了 | f rr | 中 | 
| | \ a 6 果 / 
| J | ls 
, [ Ti 
| ww YI 1y'=D 六 
| 一 
/ 稀疏 表示 入 
村 | 由 人 上 | 1 | WN Nn | 
| wr eb. 4 用 用 | | | 1 1 
| 节假日 字典 温度 字典 天 气 字典 | 
DCT 字典 
a 


图 1 多 因素 稀 跑 回归 预测 模型 框架 
Fig. 1 Framework of multi-factors sparse regression prediction model 
1.2 客流 量 数据 预 处 理 
因为 商店 的 促销 、 和 暂停 营业 或 者 其 他 原因 ， 一 些 商店 客 
流 时 序数 据 中 包含 很 多 噪声 ， 这 些 噪 声 数据 或 远大 于 正常 数 
据 ， 或 远 小 于 正常 数据 。 在 本 文中 ， 例 用 分 位 数 特 征 来 过 滤 
每 个 店铺 数据 中 的 异常 值 。 处 理 过 程 如 图 2 所 示 。 
在 本 文中 使 用 式 (1) 对 训练 数据 进行 标准 化 操作 。 
"_y—mean(y') 
a (1) 
其 中 : y 表示 去 噪 之 后 的 训练 数据 ;meany) 和 sid(y) 分 别 
表示 y 的 均值 和 标准 差 ， y" 表 示 标 准 化 的 结果 。 
值得 注意 的 是 ， 图 2 表示 的 是 一 次 预测 中 数据 的 预测 处 
理 过 程 ， 在 对 商家 多 次 的 预测 过 程 中 ， 每 次 处 理 的 都 是 训练 


以 看 到 有 明显 的 异常 值 ，(b) 是 去 除 异 常 值 之 后 的 数据 。 
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1 A 3 领 强 
天 数 
外 原始 数据 0 
(a) Raw data 
图 3 数据 去 噪 示意 图 
Fig. 3 Example of data denoising 
1.3 多 因素 字典 


(b) Data after denoising 


字典 对 后 续 稀疏 系数 向 量 的 求解 以 及 客流 量 的 预测 十 分 
重要 ， 目 前 字典 构建 主要 有 基于 分 析 和 基于 学 习 05 两 种 方法 。 
在 本 文中 ， 由 于 外 界 因素 对 客流 量 的 影响 ， 所 以 使 用 基于 分 
析 的 方法 ， 以 离散 余弦 变换 为 基础 ， 综 合 节 假日 色素 、 温 度 
于 素 、 天 气 因素 , 构建 一 个 过 完备 多 因素 字典 六 用 于 稀 琉 编 
但 。 


1.3.1 过 完备 DCT 字典 

离散 余弦 变换 (DCT) 是 一 种 变换 压缩 方法 ， 在 信和 号、 
图 像 处 理 中 被 广泛 使 用 ，DCT 使 用 余弦 函数 来 表示 信号 量 ， 
它 有 几 种 变 体 。 在 本 文中 使 用 式 (2) 中 所 示 的 正 交 DCT-I 来 


构建 大 小 为 NxN 的 DCT 字 
1 
i=0 
pT O) 
| es, i=1,2,..,N-1 
N 2N 
同时 , 为 了 减少 过 拟 合 , 本 文 引 入 式 (3) 所 示 的 Kronecker 
Delta 函数 9 构建 男 一 个 大 小 为 NxN 克 罗 内 克 字 典 ， 并 与 上 
述 DCT 字典 组 成 新 的 过 完备 字典 。 
0 izj 
gD-| es G) 


式 (2) 和 (3) 中 i,je[l0,N-] 表 示 DCT 字典 和 克 罗 内 克 字 上 典 
中 第 i 列 、 第 j 行 的 元 素 。 根据 上 述 定 义 ， 本 文 最 终 组 建 的 
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大 小 为 Nx2N 的 字典 D 如 式 (4) 所 示 ， 前 NN 列 是 DCT 产生 的 。 1.3.4 天 气 字典 
子 字典 ， 最 后 入 列 是 由 Kronecker Delta 函数 生成 的 子 字 除了 节假日 和 温度 因素 外 ， 天 气 也 是 值得 考虑 的 重要 攻 
0 素 。 显 然 ， 人 们 喜欢 在 天 气 晴 朗 的 时 候 出 门 ， 而 下 雨天 和 下 
[ 人 | 雪 天 会 减少 人 们 的 外 出 ， 这 也 可 能 影响 到 商店 客流 量 。 天 气 
Ve 人 二 情况 比较 复杂 多 样 ， 包 括 上 晴朗、 多 雨 、 多 雪 等 情况 。 本 文 根 
元 ~ 此 ssea  。，- | (0 。 据 常 见 天 气 状况 及 其 严重 程度 ， 将 天 气 分 为 以 下 几 种 不 同情 
: : 本 : 况 ， 并 分 别 设置 不 同 的 标签 ， 如 表 1 所 示 。 图 6 是 天 气 字典 
1 2 2(N-Dz 2 2-DON-Dz 的 例子 。 
LT 上 a 上 ww J 表 1 天 气 状况 分 类 及 其 标签 
1.3.2 节假日 字典 Table 1 Different weather conditions and their labels 
节假日 因素 与 人 们 的 出 行 有 很 大 的 关系 ， 间 接地 会 对 商 不 同 因素 SMAPE 
店 的 客流 量 产生 影响 。 与 工作 日 相 比 ， 人 们 更 有 可 能 在 节 假 W/O 0.2362 
日 外 出 游玩 。 因 此 ， 一 些 商 店 的 消费 者 流量 在 节假日 将 会 明 W 0.2368 
显 提高 。 另 一 方面 ， 以 快餐 店 为 典型 的 这 类 商店 客流 量 可 能 T 0.2362 
反而 会 在 节假日 下 降 。 无 论 何 种 情况 ， 节 假日 与 客流 量 之 间 H 0.2088 
都 存在 关联 关系 。 在 本 文中 构建 了 节假日 字典 ， 使 用 1 表示 H+T+W 0.1876 
节假日 ，0 为 工作 日 。 另 外 ， 为 了 更 好 地 契合 实际 情况 ， 本 
文 根 据 中 国法 定 假 日 重新 调整 节假日 字典 的 值 。 图 4 表示 一 
个 节假日 字典 例子 。 
1 
1.5 
el 
1 4 学 10 13 16 19 22 25 28 
天 数 
Un i a 到 0 天 气 字 典 例子 
天 数 Fig.6 Example of weather dictionary 
图 4 ”节假日 字典 例 了 1.4 ”多 因素 稀 跑 编码 字典 
Fig.4 Example of holiday dictionary 式 (6) 是 稀疏 表示 过 程 071， 其 目的 是 搜寻 字典 Dj 中 基 向 
1.3.3 温度 字典 量 的 稀疏 线性 组 合 ， 求 解 稀疏 系数 向 量 a， 即 使 用 字典 Di 中 
对 于 温度 而 言 ， 当 温度 适宜 时 ， 人 们 更 愿意 出 行 。 但 是 的 基 向 量 近 似 地 表示 y"。 在 本 文中 ,为 了 更 准确 地 预测 商店 
几 度 的 温差 并 不 会 对 人 的 活动 造成 很 大 的 影响 。 考 虑 到 中 国 的 客流 量 , 本 文 综合 外 部 因素 构建 了 多 因素 词典 D1 ,如 式 (7) 
相对 稳定 的 天 气 条 件 ， 极 端 气温 的 可 能 性 很 小 。 因 此 ， 一般 ” 所 示 。 
温度 在 10 摄氏 度 以 上 对 人 类 活动 影响 不 大 。 温 度 字 上 典 定义 y"=D/a (6) 
如 式 (5) 所 示 。 Dr =[D,H,T,W] (7) 
T= EE (5) =[Qp, n,Qr, Ow] (8) 
Ey 其 中 : y" 是 预 处 理 后 的 商家 客流 量 历 史 数 据 ; D 是 由 离散 余 
其 中 : high 是 当天 最 高 的 温度 ; 而 low 是 当天 最 低 的 温度 ; 弦 变 换 和 克 罗 内 克 函 数组 成 的 字典 ; 五 是 节假日 字典 ; 7 是 
7 是 处 理 结果 。 温 度 字 典 示 例如 图 5 所 示 。 其 中 实 线 代表 每 温度 字典 ; 历 是 天 气 字 典 ; ap、amr、 ar 和 aw 分别 是 DD 字典 、 
天 原始 的 温度 ， 数 值 对 应 左 坐标 轴 ; 虚线 代表 处 理 后 构成 的 节假日 字典 、 温 度 字典 、 天 气 字 典 的 权重 系数 。 
温度 字典 ， 数 值 对 应 右 坐 标 轴 。 在 完成 过 完备 多 因素 字典 Dj 的 构建 之 后 , 本文 的 目的 是 
一 -温度 cc) 一 - 温度 了 根据 式 (6) 求 解 a， 其 目标 函数 可 以 严格 定义 为 式 (9)。 
min lal, st. y"=D,o (9) 
15 ] 其 中 : a 是 稀 疏 系数 向 量 ; lel 表示 a 中 非 0 的 个 数 。 上 述 
刘 问题 的 求解 是 一 个 Zo 范 数 问题 ， 由 于 其 非 凸 的 、 不 连续 的 特 
,| 性 ,该 问题 的 求解 是 一 个 NP 难 问 题 。 文 献 [18] 表 明 ， 在 满足 
一 定 的 条 件 下 , Lo 范 数 最 小 化 问题 可 以 转换 成 Li 范 数 最 小 化 
61 问题 ， 因 此 ， 上 述 问题 的 求解 可 以 转换 为 
3 | min lal, st. y"=D/a (10) 
， 由 于 噪声 数据 的 存在 ， 往 往 不 能 准确 求解 得 到 a 使 得 式 
(10) 完 全 等 价 。 针 对 该 问题 ， 通 常 使 用 一 个 二 次 惩罚 函数 减 
弱 约 束 条 件 来 对 其 进行 求解 ， 如 (11) 所 示 。 
图 5 温度 字典 例 了 2 
|y"-D/alb < (11) 


Fig.5$ Example of temperature dictionary 
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其 中 : & 是 误差 容 义 度 ， 
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即 求解 得 到 的 稀疏 系数 a 使 得 


|y"-Dia 的 误差 在 给 定 的 误差 范 


和 之 内 。 因 此 ， 该 问题 可 以 


进一步 转换 成 式 (12) 的 求解 。 


Nl 
min 四 -Dal 


2 
» +All 


(12) 


上 述 优 化 问题 与 LASSO (Least absolute shrinkage and 


selection operator) 19 的 拉 格 朗 


于 


归 系数 绝对 值 之 和 小 于 某 个 常数 的 约束 条 件 下 ， 最 小 
差 平 方 和 ， 从 而 可 以 产生 一 些 严 格 等 于 零 的 回归 系数 ， 


式 一 致 ， 其 基本 思想 是 在 
化 残 
此 


来 保证 a 的 稀 纹 。 本 文 使 用 


Koh 等 人 PJ 提出 的 方法 来 求解 a。 


求 得 a 之 后 ,a 便 可 以 与 字典 D/ 


2 ”实验 结果 及 其 分 析 


结合 预测 某 段 时 间 的 客流 量 。 


的 影响 特别 大 。 
3 -= 
2 了 


1 | 
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因素 的 权重 分 布 


可 | 


不 | 


图 7 


不 同 因素 的 权重 分 布 


Fig.7 Distribution of different factors weight 


综 上 所 述 ， 从 总 体 上 而 言 ， 仅 仅 使 用 节假日 因素 对 预测 


2.1 实验 设置 
2.1.1 数据 集 
本 文 使 用 的 数据 集 来 自 阿里 


巴巴 举办 的 天 池 大 数据 竞赛 


《口碑 商家 客流 量 预测 P] )。 


数据 集 包 括 全 国 不 同城 市 的 


2 000 家 商店 的 历史 客流 量 ， 且 


动 支 付 较 发 达 地 区 较 多 ， 城 市 天 气 和 温度 数据 包括 每 个 城市 
的 每 天 的 情况 。 数 据 集 时 间 范 围 为 2015 年 7 


年 10 月 31 日 (除去 2015 年 
2.1.2 度量 标准 


12 


本 文 使 用 2 000 个 商店 的 平 
于 某 些 商家 的 真实 客流 量 比 


以 此 来 衡量 预测 方法 的 好 坏 。1 


其 中 北京 、 上 海 、 杭 州 等 移 


月 1 日 至 2016 
月 12 日 的 数据 )。 


精度 有 明显 的 提高 ， 生 


度 的 影响 很 小 。 
实 有 较 大 影响 。 


2.3 不 同 商家 类 型 的 实验 结果 
种 类 不 同 ， 预 测 模型 在 这 些 商 店 的 预测 效果 
能 会 有 所 不 同 , 不 同 店铺 对 不 同 因素 敏感 度 也 不 同 。 在 2 000 

I 和 、639 间 和 餐厅 和 782 间 小 吃 店 。 


于 店铺 


家 的 商店 里 ， 有 


和 独 使 用 温度 或 者 天 气 因 素 对 于 预测 精 


实验 结果 表明 ， 外 部 因素 对 于 商家 客流 量 确 


579 


昌 超 让 


二 


匀 误 差 作 为 每 组 实验 的 误差 ， 


较 小 ， 


甚至 为 0, 为 了 减少 这 类 商家 对 总 


体 误差 带 来 的 影响 。 


在 本 文中 ， 本 文 使 用 对 称 平均 绝对 百分比 误差 (symmetric 
mean absolute percentage error，SMAPE) 作 为 每 组 实验 的 预测 
误差 的 计算 方法 ， 如 式 (13) 所 示 。 


2 志 
SMAPE = 一 
nT > 


于 8 
Ci — Cir 


. (13) 


Cir + Cit 


本 文 在 这 些 不 同 


类 型 


一 


的 商店 上 进行 实验 ， 并 分 析 乡 


部 因素 对 


不 同 商店 的 影响 。 
8 所 示 ， 其 中 W/O 表示 不 附加 任何 外 部 因素 ，W、 


如 图 


T、H 分 别 表 示 附 加 天 气 、 
超市 的 预测 结果 最 好 ， 小 吃 店 最 差 。 与 超市 和 餐厅 相 比 ， 小 


吃 店 的 规模 要 小 得 多 ， 因 此 ， 3 
小 吃 店 的 预测 效果 最 差 。 在 增加 所 有 外 部 因素 后 ， 超 市 预测 


温度 和 节假日 因素 。 预 测 模型 在 


日 常客 流量 相对 不 稳定 ， 导 致 


精度 提高 了 3.94%， 和 餐厅 预测 精度 提高 4.88%， 而 小 吃 店 的 


2 


值 ; 
2.2 不 同 外 部 因素 的 实验 结果 


其 中 : n 是 商店 的 数量 ; 了 是 预测 


的 天 数 ，c 是 第 i 天 的 预测 


是 第 i 天 的 实际 值 ，SMA4PE 是 最 终 误差 。 


有 因素 的 不 同情 况 进行 实验 ， 


在 该 实验 中 ， 本 文 对 没有 因素 、 增 加 一 个 因素 、 增 加 所 


验 结果 如 表 2 所 示 。 其 中 : W/O 


分 别 计算 平均 预测 误差 。 实 


是 不 加 因素 ; W、T、H 分 


别 是 天 气 因素 、 温 度 因素 和 节 假 


日 因素 。 显 然 ， 与 不 加 因素 


相 比 ， 加 上 节假日 因素 ， 温 度 因素 和 天 气 因 素 后 ， 预 测 精 度 


提高 了 4.86% 。 在 只 增加 节 假 


忆 素 的 情况 下 ， 预 测 的 准确 


性 在 一 定 程度 上 有 所 提高 ， 为 2.74% 。 然 而 只 在 增加 天 气 或 
温度 因素 时 ， 预 测 精度 几乎 不 变 。 


从 这 个 角度 来 看 ,节假日 因 


素 比 天 气 因素 和 温度 因素 的 影响 更 大 。 
表 2 不 同 因素 的 预测 误差 
Table 2 Prediction error of different factors 


不 同 因素 SMAPE 
W/O 0.2362 
W 0.2368 
T 0.2362 
H 0.2088 
H+T+W 0.1876 


图 7 是 2 000 个 商家 三 种 因素 权重 的 分 布 图 ， 分 别 对 应 


式 (8) 中 的 ay、ar、aw。 总 体 上 ， 
度 其 次 ， 天 气 最 小 ， 意 味 着 节 假 


天 气 因素 影响 相对 较 小 ， 与 上 述 实验 结果 对 应 。 


节假日 


因素 的 比例 最 大 ， 温 
日 因素 的 影响 最 大 ， 温 度 和 


比 来 说 没有 那 和 
姑 此 ， 小 吃 店 相 
仍然 在 三 种 因素 


0.3 


0.25 


0.2 


预测 误差 (%) 


预测 精度 提高 了 $.46%。 可 能 的 原因 是 因为 在 平时 生活 中 人 


门 不 得 不 去 超市 购买 4 


QH+T+W Sparse 日 H BW mT W/O 


中 影 :站 


SSSSSSSS 


图 8 


不 同 商店 类 型 的 预 


E 活 必需 品 ， 而 餐厅 和 小 吃 店 的 消费 相 
重要 , 导致 外 部 因素 对 超市 的 影响 相对 较 小 。 
比 超市 和 餐厅 对 外 部 因素 更 为 敏感 。 节 假 
向 最 大 ， 这 与 2.2 节 所 得 的 结论 


致 。 


小 吃 店 
结果 


Fig.8 Prediction error of different shops 


图 9 是 商家 


数 二 


时 在 不 同 因 素 权重 范围 的 分 布 情况 。 其 


申 


图 9(a)(b) 和 (c) 分 别 是 在 节 


量 在 不 同 权重 范 


有 


同时 ， 也 可 


以 看 到 某 些 商家 的 天 气 因 素 权重 很 大 ， 说 明天 气 对 某 些 商家 


三 种 类 型 商家 数量 


二 
EE 


段 日 、 
的 百分比 。 如 图 9(a) 所 示 ， 总 
分布 偏向 于 权重 为 正 ， 


天 气 因素 


， 商 家 数 
本 上 ， 由 于 
所 以 节假日 因素 


温度 、 


对 


于 客流 量 的 影 


啊 偏 


向 于 积极 。 同 理 ， 对 于 温度 因素 ， 如 图 


录用 定稿 郑 增 威 ， 等 : 基于 多 因素 稀 朴 回归 预测 模型 的 商家 客流 量 预 测 第 37 卷 第 5 期 
9(b) 所 示 ， 温 度 因素 对 于 三 种 类 型 商家 客流 量 的 影响 偏向 消 客流 量 产 生 的 影响 要 小 。 商 家 数量 在 天 气 因素 不 同 权重 的 分 
极 。 同 时 可 以 看 到 ， 超 市 在 节假日 因素 和 温度 因素 权重 值 为 。” 布 如 图 9(c) 所 示 ， 显 然 三 种 不 同类 型 商家 的 分 布 几乎 没有 区 
0 附近 的 数量 的 百分比 显著 大 于 餐厅 和 小 吃 店 ， 当 权重 值 变 。 别 ， 特 别 是 当权 重 值 在 0 附近 ， 三 种 商家 数量 的 百分比 都 达 
大 或 变 小 时 ， 超 市 数量 的 百分比 普遍 小 于 这 两 种 类 型 商家 ， 到 了 70% 以 上 ， 并 随 着 权重 值 的 改变 ， 商 家 数量 迅速 下 降 ， 
这 意味 着 相 比 餐厅 和 小 吃 店 ， 节 假日 因素 和 温度 因素 对 超市 ” 这 表明 天 气 因素 对 于 三 种 不 同类 型 的 商家 客流 量 的 影响 很 小 。 
人 03 -超市 全 餐 7 全 小 吃 让 0.8 -e@- 超市 。 -餐厅  … 和 :小吃 店 
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图 9 商家 数量 在 不 同 因素 权重 范围 的 分 布 情况 
Fig.9 Distribution of shops in different factors weight 


2.4 不 同 预测 模型 的 实验 结果 1 
在 该 实验 中 ， 本 文选 取 其 他 四 种 预测 方法 来 和 多 因素 稀 > 
玻 回 归 模 型 《 即 HHTHW Sparse 模型 ) 进行 对 比 ， 甚 中 所 有 eA 
预测 方法 的 训练 数据 长 度 为 30 d, 测试 数据 长 度 为 随后 14 d。 
第 一 种 方法 为 ARIMA 模型 , 本 文采 用 参数 估计 中 的 方式 ,对 Ea 
每 个 商家 数据 经 过 差分 、 定 阶 来 确定 ARIMA 模型 的 参数 ; 
第 二 种 是 采用 取 均 值 的 方法 ， 即 预测 的 客流 量 全 为 训练 数据 Re 
客流 量 的 均值 ; 第 三 种 是 不 附加 任何 外 部 因素 的 Sparse 到 —. ARIMA 
Regression 模型 ， 第 四 种 是 循环 神经 网 络 (recurrent neural 姬 … 量 Sparse Regression 
network，RNN) [9， 其 中 网 络 的 隐藏 层 层 数 为 20， 学 习 率 0.2 —e— MEAN 
为 0.006。 实验 结果 如 表 3 所 示 。 一 RNN 
表 3 不 同 模型 的 预测 误差 0 ， ， ， 
Table 3 Prediction error of different models 0.1 0.2 0.3 0.4 0.5 0.6 
预测 模型 SMAPE 预测 误差 
RNN 0.2628 图 10 不 同 模型 预测 误差 的 CDF 图 
MEAN 0.2490 Fig. 10 CDEF of different model prediction error 
Sparse Regression 0.2362 表 4 不 同 模 型 的 时 间 复 杂 度 
ARIMA 0.2154 Table 4 Time complexity of different models 
H+T+W Sparse 0.1876 预测 模型 训练 时 间 /ms 预测 时 间 /ms 
根据 上 述 实 验 结果 ， 多 因素 稀 跑 回归 模型 的 效果 要 明显 RNN 506.1 433.3 
好 于 其 他 四 种 预测 方法 ， 其 中 RNN 模型 预测 效果 最 差 。 不 Sparse Regression 4.7 0.03 
同 模型 预测 误差 的 CDF 图 如 图 10 所 示 。 从 CDF 图 分 析 , 五 ARIMA 524.7 50.2 
种 方法 在 误差 为 0.1 和 0.6 以 下 时 ， 商 家 数量 区 别 不 明显 ; H+T+W Sparse 5.1 0.03 
但 是 当 误 差 在 0.1~0.5 间 ， 特 别 是 当 误 差 为 0.2 和 0.3 时 ， 2.5 不 同 训练 长 度 的 实验 结 
H+T+W Sparse 相 比 其 他 方法 ， 在 商家 数量 上 有 着 10%~50% 训练 长 度 对 建立 预测 ee 至 关 重 要 ， 不 同 的 训练 长 度 导 
的 提升 。 显 然 ， 在 Sparse Regression 模型 的 基础 上 增加 节 假 。” 致 预测 结果 差异 很 大 。 一 方面 ， 过 长 的 训练 长 度 包 含 过 多 的 
日 、 温 度 和 天 气 因素 后 ， 预 测 效 果 得 到 显著 的 提高 。 历史 数据 ， 会 对 预测 结果 造成 负面 影响 ， 另 一 方面 ， 训 练 长 
预测 模型 的 时 间 复 杂 度 也 是 衡量 模型 性 能 的 重要 指标 之 。 上 度 太 短 会 导致 无 法 提取 足够 的 特征 ， 不 能 准确 表示 客流 量 的 
一 。 在 本 文中 ， 由 于 有 2 000 个 商家 ， 所 以 本 文 计 算 所 有 商 。 趋势 。 在 本 文中 ， 商 店 的 客流 量 随 着 时 间 的 推移 而 变化 ， 对 


家 在 不 同 模 型 上 的 训练 时 间 以 及 预测 时 间 的 均值 来 对 比 上 述 ” 于 同一 个 商家 而 言 ， 相 隔 几 个 月 的 客流 量 可 能 都 会 有 很 大 的 
模型 的 时 间 复 杂 度 。 取 均值 的 预测 方法 不 能 算 真正 意义 上 的 不 同 。 因 此， 本 文 以 多 因素 稀 玻 回归 方法 为 预测 模型 ， 选 择 
预测 模型 ， 因 此 不 考虑 在 内 。 实 验 结果 如 表 4 所 示 。 了 20 ~100 的 训练 长 度 ， 并 计算 每 种 训练 长 度 的 误差 。 实 验 
其 中 RNN 实验 平台 为 GPU(GTX1080Ti), 其 余 三 个 模型 ”结果 如 图 11 所 示 。 当 训练 长 度 为 30 时， 预测 结果 最 好 。 

的 实验 平台 是 CPU(Gi7-4790), 内 存 均 为 8 GB。 从 表 4 中 可 以 3 结束语 

看 出 ， 稀 玻 回 归 模 型 和 多 因素 稀 玻 回归 模型 的 训练 时 间 以 及 人 

预测 时 间 都 要 远 远 少 于 其 他 两 个 模型 。 而 多 因素 稀疏 回归 模 本 文 提出 了 一 个 结合 节假日 、 温 度 和 天 气 因素 的 多 攻 
型 与 稀疏 回归 模型 的 时 间 复 杂 度 几乎 没有 差距 ， 考 虑 到 预测 ”稀疏 回归 预测 模型 。 研 究 过 程 中 ， 本 文 分 析 了 外 部 因素 可 
的 准确 度 ， 显 然 ， 多 因素 时 间 预 测 模型 的 性 能 更 加 优越 。 带 来 的 影响 ， 并 验证 这 些 因素 对 客流 量 预测 精度 的 影响 。 


寺 


可 豆 澳 


录用 定稿 


时 ， 通 过 在 不 同 商家 类 型 上 进行 预测 实验 ， 分 析 了 不 同 商家 
对 外 界 因素 的 敏感 性 。 实 验 结果 表明 ， 综 合 多 个 外 部 因素 建 


立 的 预测 模型 显著 好 于 无 因素 模型 ， 同 时 发 现 部 分 外 界 因素 
与 商家 客流 量 有 着 密切 的 关系 。 本 文 研究 成 果 对 于 提高 预测 
客流 量 的 准确 度 具 有 一 定 的 现实 意义 。 
0.22 『 
0.21 上 
及 
尊 02 上 
由 
戎 
展 
0.19 上 
0.18 CC 1 1 1 1 1 L 上 上 J 
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图 11 不 同 训 练 长 度 的 预测 误差 
Fig. 11 Prediction error of different training length 
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